Analyse prédictive des prix de location Airbnb¶

1. Contexte du projet¶

Dans un marché immobilier de plus en plus compétitif, comprendre les facteurs qui influencent le prix des locations à court terme est devenu essentiel tant pour les propriétaires que pour les plateformes comme Airbnb. Ce projet vise à analyser en profondeur un ensemble de données de propriétés Airbnb pour identifier les déterminants du prix et développer un modèle prédictif fiable.

Les objectifs principaux de cette étude sont :

  • Comprendre les variables qui influencent significativement le prix des locations
  • Quantifier l'impact des différentes caractéristiques (localisation, type de propriété, aménités, etc.)
  • Développer un modèle capable de prédire avec précision le prix d'une location en fonction de ses attributs

Cette analyse s'appuie sur un jeu de données contenant des informations détaillées sur 15 601 propriétés (22 235 orginellement) Airbnb.

2. Description des données d'entrainement¶

2.1 Source et structure des données¶

Le jeu de données utilisé provient du projet d'Analyse de données d'année 3 ESILV semestre 2. Après nettoyage, nous disposons de 15 601 propriétés avec 21 variables. Voici un aperçu des principales variables retenues pour l'analyse :

Catégorie Variables
Identifiants id
Variable Cible log_price
Caractéristiques physiques property_type, room_type, accommodates, bedrooms, beds, bed_type, bathrooms, amenities
Localisation city, neighbourhood, latitude, longitude
Règles et politiques cancellation_policy, cleaning_fee, instant_bookable
Information sur l'hôte host_since, host_identity_verified
Réputation number_of_reviews, review_scores_rating

2.2 Nettoyage et prétraitement des données¶

Plusieurs étapes de nettoyage ont été nécessaires pour préparer les données à l'analyse :

  • Sélection des variables pertinentes pour la prédiction de prix

    Nous avons décider délibérement de suprimmer 'description' de notre étude car bien que nous savons qu'elle a une influence importante sur le prix du bien nous savons pas comment traite de facon efficace cette variable dus a sa complexite et sa richesse d'information. Pour ce qui est 'first_review', 'host_has_profile_pic', 'host_response_rate', 'last_review', 'name' et 'zipcode' nous considérons qu'ils n'apportent que peu d'utilité pour notre prediction.

  • Élimination des observations avec valeurs manquantes (15 601 propriétés conservées)

  • Standardisation des types de propriétés (regroupement des catégories rares en "Other")

  • Extraction du nombre d'aménités comme caractéristique additionnelle

3. Méthodologie d'analyse¶

3.1 Approche générale¶

Notre approche d'analyse se décompose en plusieurs étapes :

  1. Analyse exploratoire des données pour comprendre les relations entre variables
  2. Analyse bivariée entre chaque variable explicative et le prix
  3. Analyse multivariée pour détecter les interactions entre variables
  4. Modélisation prédictive et évaluation des performances

3.2 Outils et techniques utilisés¶

Pour cette étude, nous avons utilisé les bibliothèques Python suivantes :

  • Pandas et NumPy pour la manipulation des données
  • Matplotlib et Seaborn pour la visualisation
  • Scikit-learn pour la modélisation et la prédiction

4. Analyse exploratoire des données d'entrainement¶

4.1 Analyse de la distribution des prix¶

Comparaison des distributions¶

La mise en parallèle des densités de price et log_price montre l'effet de la transformation logarithmique :

  • La distribution des prix originaux est fortement asymétrique (asymétrie de 4.02) avec une longue queue à droite et de nombreuses valeurs extrêmes
  • La distribution logarithmique présente une forme beaucoup plus proche d'une distribution normale (asymétrie réduit à 0.36)
No description has been provided for this image

Figure 1: Distribution du prix réel

No description has been provided for this image

Figure 2: Distribution de log_price

Statistiques descriptives¶

Statistique log_price price
Moyenne 4.7685 149.29
Écart-type 0.6586 130.96
Minimum 2.3026 10.00
25% 4.3175 75.00
Médiane (50%) 4.7449 115.00
75% 5.1874 179.00
Maximum 7.6004 1999.00
Asymétrie 0.3618 4.02
Aplatissement 0.4388 28.06
L'écart important entre la moyenne (149.29) et la médiane (115.00) des prix confirme l'asymétrie de la distribution originale. La valeur élevée de l'aplatissement (28.06) indique une distribution avec de nombreuses valeurs extrêmes.
La transformation logarithmique (log_price) normalise efficacement cette distribution, comme en témoignent les valeurs réduites d'asymétrie (0.36) et d'aplatissement (0.44) ainsi que l'écart entre la moyenne et la médiane (0.0236), rendant les données plus adaptées aux modèles statistiques paramétriques.

Analyse de la normalité¶

Les QQ plots permettent d'évaluer visuellement si nos données suivent une distribution normale en comparant les quantiles empiriques aux quantiles théoriques d'une loi normale.

No description has been provided for this image

Figure 3: QQ Plot du prix réel

No description has been provided for this image

Figure 4: QQ Plot de log_price

Dans notre cas, le QQ plot du log_price montre une meilleure adéquation à la normalité que celui du prix brut, avec des points qui suivent plus fidèlement la ligne diagonale de référence.

4.2 Analyse des caractéristiques physiques des propriétés¶

Cette section examine l'influence des caractéristiques physiques des logements sur le prix des locations Airbnb.

4.2.1 Distribution des caractéristiques d'hébergement¶

No description has been provided for this image No description has been provided for this image

Figure 5: Distribution et prix médian par type de propriété

No description has been provided for this image No description has been provided for this image

Figure 6: Distribution et prix médian par type de chambre

No description has been provided for this image No description has been provided for this image

Figure 7: Distribution et prix médian par type de lit

L'analyse des distributions révèle plusieurs tendances importantes:

  • Les appartements dominent largement le marché (65% des annonces), suivis par les maisons (21%).
  • La majorité des annonces (58%) concernent des logements entiers, tandis que les chambres privées représentent 39% du marché.
  • Les lits standards sont présents dans 95% des logements, les autres types étant marginaux.
  • Les prix médians varient considérablement: les lofts ($139) et condominiums ($133) sont les types de propriétés les plus chers, tandis que les logements entiers ($153) sont presque deux fois plus chers que les chambres privées ($75).

Cette répartition des types de logements reflète la diversité de l'offre sur Airbnb tout en mettant en évidence des écarts de prix significatifs entre les différentes catégories.

4.2.2 Analyse des aménités et leur impact¶

No description has been provided for this image No description has been provided for this image

Figure 8: Aménités courantes et relation avec le prix

No description has been provided for this image No description has been provided for this image

Figure 9: Impact des aménités sur le prix

No description has been provided for this image No description has been provided for this image

Figure 10: Impact des aménités premium

L'analyse détaillée des aménités révèle plusieurs tendances significatives:

  • Le nombre total d'aménités est positivement corrélé au prix (r=0.43), montrant une relation quasi-linéaire.
  • Les aménités les plus courantes (Wi-Fi: 93%, chauffage: 89%, essentiels: 84%) sont présentes dans la grande majorité des logements mais n'ont qu'un impact modéré sur le prix.
  • Les aménités premium comme la piscine (+35%), le jacuzzi (+28%) et l'accès au gymnase (+22%) justifient des primes de prix significatives malgré leur rareté.
  • Le score premium (présence d'aménités haut de gamme) montre une progression régulière du prix moyen, passant de $95 pour les logements sans aménité premium à $245 pour ceux qui en possèdent cinq.
  • Les logements avec équipements de divertissement (télévision, Netflix) et équipements de confort (climatisation, sèche-linge) commandent systématiquement un prix supérieur de 15-20%.

Cette répartition des aménités et leur impact différencié sur les prix suggèrent une stratification claire du marché Airbnb, allant des logements basiques aux propriétés de luxe. Ces résultats indiquent que les hôtes peuvent optimiser leur rentabilité en investissant stratégiquement dans certaines aménités clés plutôt qu'en multipliant les équipements standards.

4.2.3 Relations entre les caractéristiques physiques et le prix¶

No description has been provided for this image

Figure 11: Relations entre caractéristiques numériques et prix

L'analyse des relations révèle plusieurs insights importants:

  • Le nombre de salles de bain présente la corrélation la plus forte avec le prix (r=0.52), suivi par la capacité d'accueil (r=0.49).
  • La relation entre le nombre de chambres/lits et le prix est positive mais moins prononcée.
  • En termes de prix par personne, les chambres partagées offrent le meilleur rapport qualité-prix, suivies des chambres privées.
  • Pour le prix par chambre, les lofts commandent la prime la plus élevée, reflétant leur caractère exclusif.

Ces observations suggèrent que les facteurs liés au confort (salles de bain) et à la capacité d'accueil influencent davantage le prix que le simple nombre de chambres ou de lits.

4.2.4 Matrice de corrélation et synthèse¶

No description has been provided for this image

Figure 12: Matrice de corrélation des caractéristiques physiques

La matrice de corrélation synthétise les relations entre toutes les caractéristiques physiques et le prix logarithmique. On observe plusieurs groupes de variables fortement corrélées entre elles:

  • Le cluster capacité: accommodates, bedrooms, beds et bathrooms sont fortement corrélés entre eux et avec le prix.
  • Le cluster aménités: le nombre d'aménités et le score premium sont fortement corrélés au prix.
  • Les mesures de prix relatif (par personne, par chambre) présentent des corrélations différentes avec les autres variables.

En conclusion, notre analyse des caractéristiques physiques révèle que le prix d'un logement Airbnb est déterminé principalement par:

  1. Sa capacité d'accueil et son nombre de salles de bain
  2. La présence d'aménités premium spécifiques
  3. Le type de propriété et le mode d'occupation (logement entier vs chambre)

Ces facteurs constitueront les variables explicatives clés dans notre modèle prédictif.

4.3 Analyse géographique et impact de la localisation¶

[Analyse de l'influence de la ville, du quartier et des coordonnées géographiques]

4.4 Analyse des aménités¶

[Étude de l'impact des aménités sur le prix]

4.5 Analyse de l'influence des hôtes et des avis¶

[Analyse de l'importance de l'expérience des hôtes et des évaluations]

5. Modélisation prédictive¶

5.1 Sélection des variables¶

[Description des variables retenues pour la modélisation]

5.2 Choix et paramétrage des modèles¶

[Présentation des algorithmes testés et leur configuration]

5.3 Évaluation des performances¶

[Analyse des métriques d'évaluation et comparaison des modèles]

6. Résultats et interprétation¶

6.1 Facteurs déterminants du prix¶

[Présentation des variables ayant le plus d'impact sur le prix]

6.2 Performance du modèle prédictif et Limites de l'étude¶

[Détail des performances du modèle final] [Discussion des contraintes et limites de l'analyse]

7. Conclusion et perspectives¶

7.1 Synthèse des résultats¶

[Récapitulatif des principales découvertes]

7.2 Pistes d'amélioration et travaux futurs¶

[Suggestions pour poursuivre et approfondir cette étude]

8. Références¶

[Liste des sources, articles et outils utilisés]